一个生信素人的上道经验分享-转录组测序(基因定量篇)
上篇文章小编为大家简单介绍了转录组分析的第二步——组装,转录本组装主要是为了接下来的转录本定量和新转录本鉴定等分析,下面小编来介绍下转录组分析的第三步——基因定量吧~
我们在进行生物学研究的时候,经常会采用不同的方法对实验材料进行处理,处理后实验材料会表现出不同的表型,例如植物叶片枯萎或患病等,这些表型的不同是由于基因表达水平的不同所导致的,而衡量基因表达水平的变化就需要做基因定量。
一般来说,对基因进行定量,首先需要计算比对到各个基因的read counts,因为在进行下游差异分析时,需要使用read Counts作为输入文件。衡量基因表达水平的指标主要有RPKM,FPKM和TPM。由于每个基因的长度和测序深度不同,因此在计算上述三种指标时需要对基因或转录本的read counts进行标准化。本文,主要介绍read counts和FPKM值的获取方法。
一、 read counts计算方法
1. 软件介绍
featrueCounts已经整合到Subread软件中,可用于对基因、外显子、启动子等基因组特征进行read counts计数。主要用于对RNA-seq和DNA-seq的reads进行计数。featureCounts可在SourceForge Subread package或Bioconductor Rsubread package中获得(http://subread.sourceforge.net/) 。
2. 软件安装
下载:
使用下方链接下载feature源代码。
https://sourceforge.net/projects/subread/files/subread-2.0.1/
解压:
feature软件无需安装,下载解压就可以直接使用。
使用:
3. 软件使用
featureCounts软件使用与参考基因组比对后的bam文件计算比对到各个基因的read counts数。
注:可使用featureCounts -h 查看featureCounts软件的其他参数。
4. 运行结果
featureCounts运行完成后主要生产2个文件:*.txt和*.txt.summary。
*.txt.summary是对reads的统计结果,文件内容如下:
从结果中可以看出该实验有9842671条reads 定量到了基因上。
*.txt记录了比对到各个基因的read count数,文件内容如下:
结果文件共分为7列,分别为:
Geneid:基因ID;
Chr:基因的各个外显子所在的染色体号;
Start:基因的各个外显子起始位置;
End:基因的各个外显子终止位置;
Strand:基因各个外显子所在正负链信息;
Length:长度;
*.sort.bam:比对到该基因的read counts数;
二、 FPKM计算方法
在转录组分析中,一般使用FPKM来衡量基因表达量。FPKM全称为Fragments per Kilobase Million,是指每百万的reads比对到外显子的每千碱基的fragments数。其公式为:
计算FPKM的方法有很多,我们可以根据featureCounts软件的结果文件和FPKM公式进行计算,也可以使用现有软件进行计算。下面主要介绍使用Cufflinks软件计算FPKM的方法。
1. 软件介绍
Cufflinks主要用于转录本测序分析中的组装,定量和差异分析。其软件的输入文件可以是比对后的文件和组装后的文件。Cufflinks主要有几大分支程序,主要有Cufflinks,Cuffmerge,Cuffquant,Cuffdiff和Cuffnorm来执行转录组分析的不同步骤。其中,主要使用Cuffquant和Cuffnorm来计算FPKM(https://github.com/cole-trapnell-lab/cufflinks)。
2. 软件安装
下载:
使用下方链接下载Cufflinks源代码。
http://cole-trapnell-lab.github.io/cufflinks/install/
由于压缩包是二进制文件,下载后无需安装,可直接使用。解压后文件夹内包括Cufflinks软件的所有程序分支程序,本文主要介绍cuffqunat和cuffnorm。
cuffquant使用:
cuffnorm使用:
3. 软件使用
首先使用cuffquant对单个样本的bam文件的基因表达水平进行定量。
注:可使用cuffquant 查看cuffquant软件的其他参数。
生成的结果文件为abundances.cxb。
接着使用cuffnorm以abundances.cxb文件作为输入文件对基因和转录本的表达水平进行标准化。
cuffnorm的结果文件主要包括该实验中基因、转录本和CDS标准化后的表达水平,文件列表如下:
其中genes.fpkm_table为各个基因的FPKM值:
经验总结:
安装cufflinks软件时,需要提前安装samtools软件和Boost C++库。软件所需的参考基因组注释文件可在下载参考基因组时进行下载,若下载的注释文件为gff3格式,建议转换为gtf文件。至此,转录本分析的第三步——基因定量的操作过程就介绍完了,希望对各位小伙伴有所帮助,我们下一期再见吧~